视觉检测是自动驾驶的关键任务,它是自动驾驶计划和控制的关键基础。深度神经网络在各种视觉任务中取得了令人鼓舞的结果,但众所周知,它们容易受到对抗性攻击的影响。在人们改善其稳健性之前,需要对深层视觉探测器的脆弱性进行全面的了解。但是,只有少数对抗性攻击/防御工程集中在对象检测上,其中大多数仅采用分类和/或本地化损失,而忽略了目的方面。在本文中,我们确定了Yolo探测器中与物体相关的严重相关对抗性脆弱性,并提出了针对自动驾驶汽车视觉检测物质方面的有效攻击策略。此外,为了解决这种脆弱性,我们提出了一种新的客观性训练方法,以进行视觉检测。实验表明,针对目标方面的拟议攻击比分别在KITTI和COCO流量数据集中分类和/或本地化损失产生的攻击效率高45.17%和43.50%。此外,拟议的对抗防御方法可以分别在Kitti和Coco交通方面提高检测器对目标攻击的鲁棒性高达21%和12%的地图。
translated by 谷歌翻译
Unusually, intensive heavy rain hit the central region of Korea on August 8, 2022. Many low-lying areas were submerged, so traffic and life were severely paralyzed. It was the critical damage caused by torrential rain for just a few hours. This event reminded us of the need for a more reliable regional precipitation nowcasting method. In this paper, we bring cycle-consistent adversarial networks (CycleGAN) into the time-series domain and extend it to propose a reliable model for regional precipitation nowcasting. The proposed model generates composite hybrid surface rainfall (HSR) data after 10 minutes from the present time. Also, the proposed model provides a reliable prediction of up to 2 hours with a gradual extension of the training time steps. Unlike the existing complex nowcasting methods, the proposed model does not use recurrent neural networks (RNNs) and secures temporal causality via sequential training in the cycle. Our precipitation nowcasting method outperforms convolutional long short-term memory (ConvLSTM) based on RNNs. Additionally, we demonstrate the superiority of our approach by qualitative and quantitative comparisons against MAPLE, the McGill algorithm for precipitation nowcasting by lagrangian extrapolation, one of the real quantitative precipitation forecast (QPF) models.
translated by 谷歌翻译
本文提出了一种针对英语,韩语和泰米尔语的跨语性分类方法,该方法采用了与语言无关的功能和语言唯一功能。首先,我们从语音质量,发音和韵律等各种语音维度中提取39个特征。其次,应用功能选择来确定每种语言的最佳功能集。通过比较三种语言的特征选择结果来区分一组共享功能和一组独特的功能。最后,使用两个功能集,进行自动严重性分类。值得注意的是,所提出的方法删除了语言的不同特征,以防止其他语言的唯一特征的负面影响。因此,由于其强度归因于缺失的数据,因此采用了极端梯度提升(XGBoost)算法进行分类。为了验证我们提出的方法的有效性,进行了两个基线实验:使用单语言特征集的交点集(交叉路口)和使用单语语言特征集(UNIOM)的联合集合进行实验。根据实验结果,我们的方法以67.14%的F1得分获得更好的性能,而交叉路口实验为64.52%,联合实验为66.74%。此外,所提出的方法比所有三种语言的单语言分类都能获得更好的性能,分别达到17.67%,2.28%,7.79%的相对百分比增加了英语,韩语和泰米尔语。结果规定,必须单独考虑通常共享特征和特定于语言的特征,以进行跨语音质心严重性分类。
translated by 谷歌翻译
语言表示建模的最新进展广泛影响了密集检索模型的设计。特别是,许多高性能的密集检索模型使用BERT评估查询和文档的表示形式,并随后应用基于余弦相似的评分来确定相关性。然而,已知BERT表示遵循狭窄的锥形的各向异性分布,对于基于余弦相似的评分,这种各向异性分布可能是不希望的。在这项工作中,我们首先表明基于伯特的DR还遵循各向异性分布。为了解决这个问题,我们介绍了无监督的后处理方法,使流动和美白归一化,并开发了令牌方法,除了将后处理方法应用于密集的检索模型的表示形式外,还针对序列方法。我们表明,所提出的方法可以有效地增强各向同性的表示形式,然后我们与Colbert和Repbert进行实验,以表明文件重新排列的性能(NDCG 10)可以改善5.17 \%$ \ sim $ 8.09 \ sim $ 8.09 \ Colbert的%和6.88 \%$ \ sim $ 22.81 \%的Repbert。为了检查各向同性表示对改善DR模型的鲁棒性的潜力,我们研究了测试数据集与培训数据集不同的分数外任务。结果表明,各向同性表示可以达到普遍改善的性能。例如,当训练数据集为MS-Marco并且测试数据集为鲁棒04时,各向同性后处理可以提高基线性能高达24.98 \%。此外,我们表明,使用过分分布数据集训练的各向同性模型甚至可以胜过通过分布数据集训练的基线模型。
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
随着深度学习(DL)的引入,常用心电图(ECG)诊断模型的性能改善。但是,尚未充分研究多个DL组件的各种组合和/或数据增强技术对诊断的作用的影响。这项研究提出了一种基于集合的多视图学习方法,采用ECG增强技术,比传统的12级ECG诊断方法获得更高的性能。数据分析结果表明,所提出的模型报告的F1得分为0.840,这表现优于文献中现有的最新方法。
translated by 谷歌翻译
在本文中,我们提出了一个健壮的模仿学习(IL)框架,该框架在扰动环境动态时改善了IL的稳健性。在单个环境中训练的现有IL框架可能会因环境动力学的扰动而灾难性地失败,因为它无法捕获可以更改潜在环境动态的情况。我们的框架有效地处理了具有不同动态的环境,通过模仿了采样环境动力学中的多个专家,以增强环境动力学的一般变化中的鲁棒性。为了强力模仿多个样本专家,我们将代理商政策与每个样本专家之间的Jensen-Shannon分歧降低了风险。数值结果表明,与常规IL基准相比,我们的算法显着提高了针对动力学扰动的鲁棒性。
translated by 谷歌翻译
扫描透射电子显微镜(STEM)是用于多种材料的原子分辨率结构分析的必不可少的工具。 STEM图像的常规分析是一个广泛的动手过程,它限制了高通量数据的有效处理。在这里,我们应用一个完全卷积网络(FCN)来识别二维晶体的重要结构特征。 Resunet是一种FCN的类型,用于识别来自原子分辨率STEM图像的$ {MOS_2} $的硫磺空缺和多晶型物类型。在存在不同水平的噪声,畸变和碳污染的情况下,基于模拟图像的训练来实现有效的模型。 FCN模型对广泛的实验茎图像的准确性与仔细的动手分析相当。我们的工作提供了有关最佳实践的指南,以训练深度学习模型进行STEM图像分析,并证明了FCN有效地处理大量STEM数据的应用。
translated by 谷歌翻译
学术文学的数量,如学术会议论文和期刊,全世界迅速增加,持续研究元数据提取。然而,由于期刊出版商的不同布局格式,高性能的元数据提取仍然具有挑战性。为了适应学术期刊布局的多样性,我们提出了一种具有三种特征的新型布局感知元数据提取(LAME)框架(例如,自动布局分析的设计,施工大型元数据训练集,以及建设布局 - 元签名。我们使用PDFminer设计了自动布局分析。基于布局分析,自动提取大量的元数据分离训练数据,包括标题,摘要,作者姓名,作者附属组织和关键字。此外,我们构建了Layout-Metabert以从具有不同布局格式的学术期刊中提取元数据。具有不同布局格式的未经布局格式的USADATA提取中的稳健性能(MACRO-F1,93.27%)的实验结果表现出鲁棒性能(MACRO-F1,93.27%)。
translated by 谷歌翻译
近年来,已经提出了神经网络的方法作为一种方法,作为一种从音乐中的表示的方法,但它们不是人类可读性,并且几乎不可分析的人是人类的。为了解决这个问题,我们提出了一种新的方法,通过矢量量化变分自动编码器(VQ-VAE)来学习音乐的源自令人难以展示的陈述。我们训练我们的VQ-VAE以将输入混合物编码为一个整数的张量离散的百日利斯空间,并设计它们具有分解结构,使人类以源自感知方式达到人类潜伏的载体。本文还表明,我们可以通过在离散空间中估计潜伏向量来生成贝塞斯。
translated by 谷歌翻译